大型语言模型尽管功能强大,但往往会以令人惊讶和难以预测的方式失败。由于它们是基于大量网络规模的数据进行训练的,因此评估它们对语言的真正“理解”尤其具有挑战性。因此,我们利用构造语法 (CxG) 构建了一个评估系统,以系统地评估 LLM 中的自然语言理解 (NLU),该评估系统可以洞悉语言元素(称为构造 (Cxns))所捕获的含义。CxG 非常适合此目的,因为它为构建有针对性的评估集提供了理论基础。这些数据集经过精心构建,包含不太可能出现在预训练数据中的示例,但直观且易于人类理解,从而实现更有针对性和更可靠的评估。我们的实验重点关注下游自然语言推理和推理任务,通过将 LLM 对通过 8 个独特 Cxns 传达的底层含义的理解与人类的理解进行比较。结果表明,虽然 LLM 展示了一些结构信息知识,但即使是包括 GPT-o1 在内的最新模型也难以理解这些结构信息所传达的抽象含义,正如测试句子与其预训练数据不同的情况下所证明的那样。我们认为,这种情况可以更准确地测试真正的语言理解能力,凸显了 LLM 语义能力的关键局限性。我们将我们的新数据集和相关实验数据(包括提示和模型响应)公开。
主要关键词